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摘 要 : 为 了 能 够 实时 了 解 国际 双边 合作 中 有 价值 的 信息 ,高效 地 智能 提取 Web 外 交 新 闻 中 的 国际 合作 元 素 就 显得 
至 关 重 要 。 将 国际 合作 元 素 抽 取 抽 和 象 为 类 似 命名 实体 识别 的 问题 。 首 先 ， 界 定 国 际 合作 元 素 的 内 涵 ; 其 次 ， 提 取 了 
蕴涵 领域 知识 的 规则 ; 再 次 ， 结 合 神经 网 络 与 领域 知识 提出 了 面向 外 交 新 闻 文 本 的 国际 合作 元 素 抽取 方法 ; 最 后 ， 
在 相同 语料库 中 与 神经 网 络 方法 以 及 自身 规则 组 合 进行 了 比较 ， 实 验 结 果 表 明 该 方法 具有 更 好 的 效果 。 
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Extraction of diplomatic international cooperation elements based on 
neural networks and domain knowledge 
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(a. School of Information Technology, b.Key Laboratory of Data & Knowledge Engineering, Jiangxi University of Finance 
& Economics, Nanchang 330013, China) 


Abstract: In order to get valuable information in bilateral cooperation in real time, it is of utmost importance to efficiently 
extract international cooperation elements in Web diplomacy news. This paper abstracted international cooperation element 
extraction into a problem similar to named entity recognition. First of all, it defined the connotations of international 
cooperation elements.Secondly, it extracted the rules that contained domain knowledge.Then it proposed a framework for 
extracting international cooperation elements for diplomatic news texts which combined with neural networks and domain 
knowledge.Finally, the method was compared with the neural network method and its own rule combination in the same 
corpus. The experimental results show that the proposed method has better results. 
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diplomatic news 


0 ”引言 和 机 构 名 以 及 数值 表达 式 (如 时 间 、 日 期 、 金额 和 百分比 ) 等 。 
NER 被 看 做 是 语言 学 中 的 序列 标注 任务 ， 类 似 的 任务 有 分 
国际 合作 元 素 抽取 是 自然 语言 处 理 (natural language 词 、 词 性 标注 以 及 机 器 翻译 等 。 
processing, NLP) 研 究 的 一 个 分 支 领域 。 抽 取 方 法 需要 能 够 智 大 部 分 传统 且 表 现 较 好 的 序列 标注 模型 是 线性 统计 模 
一 能 识别 外 交 新 闻 文 本 中 出 现 的 国际 合作 元 素 ， 如 “一 带 型 ， 包 括 隐 马 尔 可 夫 场 (hidden Markov model HMM) 和 条 件 
路 ”、 农 产品 深加工 、 达 特 卡 一 克明 输 变 电工 程 《 中 国 加 入 随机 场 (conditional random field, CRF)02。 它们 的 效果 受到 人 


世贸 组 织 议定 书 》 斯 图 加 特 德 中 友好 协会 等 。 研究 者 可 以 在 。” 工 构 建 的 特征 和 任务 数据 集 本 身 特点 的 影响 ,如 NER 的 效果 
此 基础 上 进一步 深入 挖掘 中 国 国际 合作 的 产业 结构 、 共 性 产 。 会 受到 分 词 结果 中 词性 特征 的 影响 。 然 而 ， 由 于 人 工 特 征 构 
业 、 新 兴 产 业 、 优 势 产 业 、 特 色 产 业 、 产 业 合 作 倾 向 、 产 4 建 过 程 所 需 工作 量 和 专业 知识 较 大 ， 使 得 对 此 类 方法 的 改进 
合作 成 效 、 产 业 迁 移 和 产业 合作 短 板 等 ， 从 而 实现 中 国 国 际 出现 了 瓶颈 。 近 年 来 ， 为 了 克服 传统 模型 的 局 限 性 ， 随 着 词 
合作 情况 的 知识 发 现 ， 为 走出 去 企业 提供 实时 的 中 国 国际 合 。” 向 量 的 出 现 ， 非 线性 的 神经 网 络 (neural network, NN) 模 型 被 
作 信息 服务 ， 避 免 中 国企 业 走出 去 的 盲目 性 。 随 着 网 络 新 闻 ”广泛 运用 到 NLP 问题 中 ， 在 NER 任务 的 处 理 中 已 取得 了 与 
的 发 展 ， 以 Web 为 载体 的 外 交 新 闻 ( 简 称 为 Web 外 交 新 闻 ) ”传统 模型 方法 相 媲 美的 结果 B-5。 


有 真实 性 、 权 威 性 、 广 泛 性 、 时 效 性 特点 。 透 过 中 国 Web 通过 对 中 国 Web 外 交 新 闻 的 阅读 和 分 析 , 本 文 提出 了 国 

外 交 新 闻 这 一 窗口 抽取 国际 合作 元 素 ， 可 以 为 中 国 国 际 合作 ” 际 合 作 元 素 的 概念 ， 分 析 了 国际 合作 元 素 的 特点 ， 提 取 了 涵 
情况 的 知识 发 现 提 供 新 的 研究 渠道 和 必要 的 技术 支持 。 含 领域 知识 的 规则 ， 并 在 此 基础 上 提出 了 抽取 国际 合作 元 素 
本 文 把 国际 合作 元 素 抽取 问题 抽象 为 类 似 于 命名 实体 识 ”的 基本 策略 : 首先 ， 从 Web 中 获取 中 国外 交 新 闻 文 本 ， 进 行 


别 (named entity recognition, NER) 任 务 。 传 统 的 NER 任务 的 分 词 处 理 ， 并 对 分 词 序列 进行 人 工 标 注 ; 然后， 基于 Web 外 
目标 是 识别 出 非 结 构 化 文本 中 的 信息 单元 ， 包 括 人 名 、 地 名 交 新 闻 和 中 文 维基 百科 组 成 的 数据 集 , 训练 一 个 词 向 量 模 型 ; 
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再 次 ， 


其 于 词 向 量 模型 通过 BiLSTM-CNNs-CRF 神经 网 络 结 


构 训 练 国际 合作 元 素 抽 取 模 型 ， 并 完成 初步 抽取 ; 最 后 ， 通 
过 分 析 初 步 抽 取 结 果 ， 借 助 外 部 词典 和 已 提取 的 规则 等 领域 
知识 改进 抽取 结果 。 


1 ”相关 研究 


本 节 简 要 介绍 NLP 研究 中 与 神经 网 络 和 序列 标注 任务 
相关 的 一 些 研 究 进展 情况 。 
在 NLP 的 研究 中 ， 卷 积 神经 网 络 (convolutional neural 


networks，CNN) 、 递 归 神 经 网 络 (recurrent neural networks， 


RNN) 和 长 短 
用 较为 广泛 。 文 


期 记忆 (ong short-term memory LSTM) 网 络 的 应 
献 [5,6] 的 研究 表明 ，CNN 模型 在 英文 文本 中 


可 以 有 


效 地 从 单词 的 


字母 中 提取 形态 学 信息 (如 单词 的 前 绥 


或 后 级 )， 并 且 把 它 编码 为 神经 网 络 的 表现 形式 。 文 献 [7] 已 


经 证 明 , RNNs 模型 虽然 在 理论 上 能 够 获取 长 距离 依存 关系 ， 


但 是 实际 上 由 于 梯度 消失 和 梯度 爆炸 的 问题 ， 在 解决 长 距离 
题 上 遇 到 了 困难 。 
为 了 应 付 梯 度 消 失 的 问题 ，LSTM 作为 RNNs 的 变 体 被 
每 个 LSTM 单元 由 三 种 门 来 保护 和 控制 单元 状态 ， 其 
FP， 输入 门 控 制 输入 的 幅度 ， 遗 忘 门 控 
入 幅度 ， 输 出 门 控 制 最 终 记 忆 的 输出 幅度 。LSTM 利用 了 过 
去 的 动态 时 序 信息 和 当前 时 刻 的 输入 信息 

出 标记 。 
为 了 充分 利用 时 
(Bi-directional LSTM)。Bi-LSTM 在 处 理 很 多 同时 需要 利用 到 
下 文 信息 和 未 来 上 下 文 信息 的 任务 时 ， 取 得 了 不 错 的 


依存 问 


= 
ED , 


一 


bm 


过 去 上 


制 之 前 记忆 状态 的 输 


息 预测 当前 时 刻 的 输 


间 序 列 信 息 ， 文 献 [8] 提 出 了 Bi-LSTM 


效果 。Bi-LSTM 的 基本 思想 是 将 每 个 序列 向 前 和 向 后 呈现 为 


两 个 单独 的 隐藏 状态 ， 
将 两 个 隐藏 


RR 态 连 接 起 来 形成 最 终 输 出 。 
序列 标注 问题 是 NLP 中 的 研究 热点 问题 。 它 的 应 用 范围 


以 分 别 捕 获 过 去 和 未 来 的 信息 ， 然 后 


非常 广泛 ， 包 括 NER、 词 性 (part-of-speech, POS) 标 注 、 浅 层 


句法 分 析 和 机 器 翻译 等 。 

文献 [9] 中 提出 了 一 种 区 别 于 传统 HMM 的 
MI) 方 法 ， 并 把 它 应 用 于 词性 标注 领域 ;应 
用 iHMM 解决 了 在 无 监督 Markov 模型 中 选择 隐藏 状态 数 
的 问题 ; 在 实验 过 程 中 实现 了 并 行 1HMM 算法 ,在 华尔街 日 
用 了 两 个 非 参数 化 (dirichlet process 和 


1iHMM(infinite HM 


报 数 据 集 上 应 


符 级 编码 器 比 词根 级 编码 器 的 效果 更 好 或 相当 。 
2 ”国际 合作 元 素 的 内 涵 寞 定 


2.1 国际 合作 元 素 的 定义 

定义 1 国际 合作 元 素 是 指 在 外 交 新 闻 文 本 中 能 够 直接 
或 间接 表明 双方 或 多 方 合作 领域 以 及 合作 意向 的 最 大 连续 字 
符 序列 。 国 际 合作 元 素 包 含 规划 名 称 (简称 为 规划 类 )、 产 业 
领域 名 称 (简称 为 产业 类 )、 项 目 名 称 (简称 为 项 目 类 )、 协 定 / 
协议 /合作 备忘录 等 文件 名 称 (简称 为 协定 类 )、 合 作 平台 名 称 
(简称 为 平台 类 ) 五 大 类 别 。 

各 类 别 举例 如 下 : 

例 1 近年 来 ， 双 方 加 快 发 展 战略 对 接 ， 不 断 推进 “ 
带 一 路 ”框架 下 各 领域 务实 合作 ， 产 能 合作 也 取得 新 进展 。 

规划 名 称 :“ 一 带 一 路 ”。 
例 2 中 方 愿意 进口 更 多 吉尔 吉 斯 斯 坦 的 水 果 、 肉 类 、 
奶粉 等 优势 农产品 ， 丰 富 中 国 居 民 的 餐桌 。 

产业 领域 名 称 : 水 果 、 肉 类 、 奶 粉 、 农 产品 。 

例 3 达 特 卡 一 克明 输 变 电工 程 结束 了 吉尔 吉 斯 斯 坦 电 
力 资源 分 布 不 均 、 输 送 不 畅 的 历史 ， 南 北 公路 竣工 后 将 实现 
吉尔 吉 斯 斯 坦 人 民 天 山 变 通途 的 梦想 ， 奥 什 市 医院 建成 后 将 
为 南部 地 区 居民 提供 更 加 优质 的 医疗 服务 。 

项 目 名 称 : 达 特 卡 一 克明 输 变 电工 程 、 南 北 公 路 、 奥 要 
市 医院 。 
例 4 德 方 高 度 赞 赏 中 方 支持 欧洲 一 体 化 ， 愿 进一步 推 
动 欧 盟 履 行 《中 国 加 入 世贸 组 织 议定 书 》 有 关 承 诺 ， 和 希望 欧 
中 投资 协定 谈判 尽快 完成 。 
协定 /协议 /合作 备忘录 等 文件 名 称 :《 中 国 加 入 世贸 组 织 
议定 书 》。 
例 $ 我 宣布 ， 中 方 将 设立 中 拉 产 能 合 
此 提供 300 亿美 元 融资 ， 支 持 中 拉 产 能 合作 

合作 平台 名 称 : 中 拉 产 能 合作 专项 基金 。 
在 外 交 新 闻 中 并 非 所 有 句子 都 包含 国际 合作 元 素 ， 将 包 
含 国际 合作 元 素 的 句子 称 为 外 交合 作 句 ， 反 之 则 称 为 非 外 交 
合作 句 。 根 据 以 上 定义 ， 把 从 外 交合 作 句 中 抽取 国际 合作 元 


区 


pitman-yor process) 先 验 ; 在 结果 评估 中 采用 聚 类 评估 指标 ， 
比 之 前 的 工作 相同 或 更 好 的 评估 结果 ; 并 基于 该 结果 ， 


获得 了 


用 评估 无 监督 词性 标注 标记 器 的 输出 蔡 代 全 监督 的 词性 标注 
j 于 浅 层 句法 分 析 任务 ， 取 得 了 比较 好 的 


标记 器 的 输出 ， 应 / 


实验 结果 。 


文献 [10] 将 CRF 


不 错 的 效果 ; 文中 提 到 , 基于 现代 优化 算法 的 改进 训练 方法 ， 
现 这 样 的 结果 至 关 重 要 。 在 实验 过 程 中 对 模型 和 训练 
方法 进行 了 大 范围 的 比较 。 
献 [11] 提 出 了 一 种 新 的 结合 Bi-LSTM 和 CRE 的 神经 网 


对 于 实 


文 
络 架 构 
语言 的 
络 架 构 
地 从 单 


网 络 的 


应 用 于 浅 层 句法 分 析 任 务 中 ， 并 取得 了 


， 在 没有 利用 4 


NER 任务 中 取得 了 良好 的 效果 。 在 文献 [11] 的 神经 网 
基础 上 上， 文献 [12] 添 加 了 一 个 CNNs 网 络 层 ， 以 有 效 
词 的 字母 中 提取 形态 学 信息 。 


竺 定语 言 知 识 和 资源 的 前 提 下 ， 在 4 种 


现 有 的 机 器 翻译 系统 ， 无 论 是 基于 短语 的 还 是 基于 神经 


素 的 问题 抽象 为 一 个 类 似 于 序列 标注 任务 ， 即 在 已 经 进行 过 
分 词 处 理 的 句子 中 找 出 最 符合 要 求 的 标注 序列 。 
2.2 国际 合作 元 素 的 特点 
国际 合作 元 素 的 抽取 虽然 与 NER 有 相似 之 处 ,但 国际 合 
作 元 素 本 身 具有 很 多 一 般 命名 实体 不 具备 的 特点 。 具 体 分 析 
如 下 : 
a) 国 际 合作 元 素 中 可 能 包含 标点 或 特殊 符号 ， 而 这 些 标 
点 和 特殊 符号 经 常会 成 为 划分 国际 合作 元 素 的 边界 标志 。 
例 6 为 延续 业已 开展 35 年 的 合作 ， 双 方 商定 ,在 中 国 
计量 科学 研究 院 与 德国 联邦 物理 技术 研究 院 2014 年 4 月 签署 
的 中 德 计量 合作 协议 框架 下 ， 加 强 在 质量 、 时 间 、 温 度 法 制 
计量 标准 领域 的 交流 。 
例 7 在 此 基础 上 ， 双 方 致力 于 深化 工业 、 城 镇 化 及 农 
业 等 领域 的 创新 合作 ， 并 在 此 框架 下 共同 应 对 可 持续 发 展 和 
全 球 公共 产品 保护 的 任务 及 挑战 。 
例 6 中 ,“ 质 量 、 时 间 、 温 度 法 制 计量 标准 ”联合 起 来 被 
看 做 是 国际 合作 元 素 中 产业 类 别 的 1 个 实例 ， 在 这 一 实例 中 
包括 2 个 顿 号 。 而 例 7 中 的 工业 、 城 镇 化 、 农 业 被 看 做 是 国 


并 
WW 


ll 


Tt 


， 都 几乎 完全 


[13] 使 


依赖 于 具有 明确 分 割 的 词 级 建 模 。 文 献 


用 来 自 WMTI15 的 平行 语料库 对 4 种 语言 对 (En-Cs， 
En-De，En-Ru 和 En-Fi) 上 的 词根 级 (subword-level) 编 码 器 和 
字符 级 (character-level) 编 码 器 进行 评估 ; 实验 结果 说 明 ， 字 


际 合作 元 素 中 产业 类 别 的 3 个 实例 ， 而 这 3 个 国际 合作 元 素 
被 顿 号 分 割 。 

b) 相 同 的 国际 合作 元 素 在 不 同 的 语 境 下 可 能 被 划分 为 不 
同 的 类 别 。 
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例 8 在 今年 6 月 召开 的 中 阿 合 作 论坛 第 六 届 部 长 级 会 为 了 更 好 地 表述 规则 4, 先 定义 触发 词 和 边界 标志 如 下 。 
议 上 ， 主席 提出 了 中 国 同 阿拉 伯 国 家 共 建 “丝绸 之 路 定义 2 ”触发 词 是 与 某 类 国际 合作 元 素 搭配 出 现 或 包含 
经 济 带 ” 和 “21 世纪 海上 丝绸 之 路 ”的 宏伟 构想 。 在 国际 合作 元 素 内 ， 并 可 用 于 判别 国际 合作 元 素 类 别 的 词语 
例 9 表示 , 中 方 建设 21 世纪 海上 丝绸 之 路 ”或 词组 。 根 据 触发 词 出 现 的 位 置 ， 可 把 触发 词 分 为 3 类 : 出 
的 倡议 同 印 尼 发 展 战 略 有 契合 之 处 。 现在 国际 合作 元 素 左 侧 的 称 为 前 触发 词 ， 出 现在 国际 合作 元 
例 8 中 , 21 世纪 海上 丝绸 之 路 被 看 做 是 国际 合作 元 素 中 素 右 侧 的 称 为 后 触发 词 ， 出 现在 国际 合作 元 素 内 部 的 称 为 内 
平台 类 别 的 1 个 实例 。 而 例 9 中 , 将 21 世纪 海上 丝绸 之 路 分 ”触发 词 。 
类 为 国际 合作 元 素 中 规划 类 别 的 1 个 实例 ， 则 更 符合 语 境 。 定义 3 边界 标志 是 用 以 决定 前 触发 词 、 后 触发 词 与 国 
c) 内 涵 更 大 的 国际 合作 元 素 中 可 能 包含 内 涵 更 小 的 国 ” 际 合作 元 素 共 现 窗 口 大 小 的 符号 或 词语 ， 多 为 标点 符号 ， 少 
际 合作 元 素 。 数 情况 为 长 句 中 能 缩小 范围 的 词语 。 共 现 窗口 是 指 边界 标志 
例 10 不 少 非洲 国家 领导 人 都 提出 扩大 中 非 高 速 公 路 。 首 端 到 国际 合作 元 素 末 端 (前 窗口 ) 或 国际 合作 元 素 首 端 到 边 
合作 、 建 设 高 速 公路 网 的 愿望 ， 中 方 对 此 给 予 积极 支持 ， 愿 。” 界 标志 末端 (后 窗口 )。 


与 非 方 加 强 合作 ， 促 进 非洲 高 速 公 路 逐步 连接 成 网 。 规则 4 对 于 每 个 抽取 结果 , 在 其 前 窗口 查找 前 触发 词 ， 
例 10 中 , 高 速 公路 、 高 速 公路 网 能 够 被 看 做 是 国际 合作 。 ” 若 找 到 ， 则 改变 抽取 结果 的 类 别 ， 反 之 ， 则 保留 原 结 果 。 后 
窗 


元 素 中 产业 类 别 的 两 个 实例 ， 其 中 ， 高 速 公路 的 内 涵 更 小 ， 窗口 同 理 。 内 触发 词 则 在 国际 合作 元 素 中 查找 。 三 种 触发 词 
它 包 含 于 内 涵 更 大 的 高 速 公路 网 中 。 的 优先 级 ( 即 决 定 权 ) 由 高 到 低 依次 为 内 触发 词 、 前 触发 词 、 
于 国际 合作 元 素 的 以 上 特点 ， 抽 取 结 果 中 会 出 现 以 下 ”后 触发 词 。 
部 分 情况 : 对 于 以 上 四 条 规则 ， 规 则 1 是 为 了 解决 初步 抽取 结果 中 
a) 本 应 对 称 出 现 的 标点 符号 在 抽取 结果 中 未 成 对 出 现 ， 出 现 的 “不 规范 抽取 ”问题 ， 规 则 2、 规则 3 和 规则 4 则 是 
例如 : 0、《》 以 及 双 引 号 ， 本 文 将 此 类 现象 称 为 “不 规范 抽 ” 利用 领域 知识 、 通 过 不 同 的 处 理 方式 分 别 解 决 初步 抽取 结果 
取 ” 问 题 ; 中 出 现 的 “未 完全 抽取 ”“ 分 割 抽取 ”“ 分 类 错误 ”3 类 问题 。 
b) 抽 取 结 果 仅 仅 是 真实 结果 中 的 子 部 分 ， 同 时 抽取 结果 最 后 ， 对 于 “完全 未 抽取 ”“ 完 全 抽取 错误 ”2 类 问题 ， 
与 真实 结果 在 国际 合作 元 素 的 分 类 上 相同 ， 本 文 将 此 现象 称 ”由 于 缺乏 必要 的 线索 ， 无 法 在 初步 抽取 结果 的 基础 上 通过 领 
为 “未 完全 抽取 ”问题 ; 域 知识 而 解决 ， 因 此 不 属于 本 文 研究 的 范畴 。 
c) 在 初步 抽取 过 程 中 ， 真 实 结果 中 的 1 个 国际 合作 元 素 = = i 
的 全 部 或 部 分 可 能 被 分 割 为 2 个 或 多 个 国际 合作 元 素 ， 同 时 4 。 国际 合作 元 素 的 抽取 方式 
分 割 产 生 的 国际 合作 元 素 与 真实 结果 的 类 别 相 同 ， 本 文 将 此 国际 合作 元 素 的 抽取 与 序列 标注 任务 具有 相似 的 特点 ; 
岗 象 称 为 “分 割 抽取 ”问题 ; 但 是 相 比 传统 序列 标注 任务 ， 国 际 合作 元 素 抽取 任务 涉及 的 
d) 抽 取 的 国际 合作 元 素 完 全 正确 , 但 在 分 类 时 出 现 错误 ， ”类 别 较 多 ， 且 长 度 分 布 不 均匀 ， 这 使 得 一 般 的 序列 标注 方法 
即 “ 分 类 错误 ”问题 ; 由 取得 到 的 结果 仍然 有 改进 的 余地 。 从 元 素 类 别 来 说 ， 国 际 
e) 真 实 结果 中 的 国际 合作 元 素 并 未 在 抽取 结果 中 出 现 ， 合作 元 素 的 类 别 较 多 且 类 别 的 分 类 以 “语义 ”为 标准 ， 相 比 
即 “完全 未 抽取 ”问题 ; 传统 的 人 名 地 名 识别 的 分 类 更 为 困难 ; 从 元 素 长 度 而 言 ， 
与 e) 相 反 ， 抽 取 结 果 中 出 现 的 国际 合作 元 素 并 不 是 真 。” 际 合作 元 素 的 长 度 (词语 个 数 ) 分 布 不 均匀 ， 如 例 6 中 的 “ 质 
实 的 国际 合作 元 素 ， 即 “完全 抽取 错误 ”问题 。 Jj 间 、 温 度 法 制 计量 标准 ”不 仅 包含 多 个 词语 而 且 还 包 


时 

点 符号 。 为 了 兼顾 以 上 两 点 ,本文 的 抽取 策略 是 : 首先 ， 
采用 近期 在 序列 标注 任务 上 表现 优异 的 神经 网 络 模型 对 国际 

元 

已 


3 ”领域 知识 的 提取 


针对 2.2 节 中 提 到 的 国际 合作 元 素 本 身 的 特点 ， 本 文 发 。 合作 元 素 进行 初步 抽取 ; 然后 , 将 初步 抽取 的 结果 作为 输入 ， 
现 并 提取 了 以 下 涵 含 领域 知识 的 规则 : 此 助 已 提取 的 领域 知识 规则 对 抽取 结果 进行 优化 ， 并 把 优化 

规则 1 抽取 结果 中 ，0、《》 以 及 双 引 号 必须 成 对 出 现 ， 结果 作为 最 后 的 输出 结果 。 方 法 框架 如 图 1 所 示 ， 对 应 算法 
如 果 抽 取 结 果 收 到 影响 ， 必 须 对 抽取 结果 作出 相应 调整 。 1 和 2。 

规则 2 ”开始 词 和 结束 词 为 出 现在 国际 合作 元 素 边缘 但 和 法 1 基于 神经 网 络 的 国际 合作 元 素 抽 取 


在 初步 抽取 中 未 被 抽取 的 词语 。 如 果 满 足 规则 1 的 抽取 结果 ” 输入 : 已 训练 好 的 神经 网 络 模型 ， 已 进行 分 句 和 分 词 处 理 的 文件 。 
r 至 少 包 含 2 个 词 ， 则 在 左边 补充 开始 词 (B)、 右 边 补充 结束 ”” 输出: 初步 抽取 结果 。 
词 (E)。 如 果 BrE，Br, 碟 之 一 出 现在 原 句 子 中 ， 则 把 扩充 后 ”for 测试 集中 的 一 个 批 次 (batch) 的 每 一 个 句子 (9) { 


| 
的 结果 作为 新 的 抽取 结果 ; 如 果 出 现 不 止 1 类 ， 则 取 长 度 较 for 句子 (s) 中 的 每 一 个 词语 (0) { 
长 者 作为 结果 。 居 在 词 向 量 文件 (WV) 中 查找 词语 记 所 对 应 的 词 向 量 表 示 */ 
规则 3 ”中 间 词 为 出 现在 较 长 的 国际 合作 元 素 中 但 在 初 word_embedding 二 WV![x]; 
步 抽取 中 “分 制 ” 了 国际 合作 元 素 的 词语 。 记 R={riy| 1<i<m,， /* 使 用 w2c 方法 计算 词语 x 的 字符 表示 对 
1<j<ni, rij 是 满足 规则 1 并 已 经 过 规则 2 处 理 的 第 i 个 句子 中 char_representation 二 Ww2c(xi); 
包含 的 第 j 个 国际 合作 元 素 , m 为 句子 个 数 , ni 为 第 i 个 句子 旋 拼接 word_embedding 和 char_representation 作为 词语 x 的 神 
中 包含 的 国际 合作 元 素 个 数 }， 对 于 Ri 中 每 个 至 少 包 含 2 个 经 网 络 的 输入 ” 
词 的 国际 合作 元 素 ， 按 照 出 现 位 置 把 与 其 相 邻 的 国际 合作 元 embedding «— concat(word_embedding, char_representation); 
素 从 左 到 右 和 其 两 两 组 合 ， 并 在 其 中 插入 中 间 词 (M)， 即 从 前 向 过 程 : 决定 什么 信息 应 该 被 神经 元 遗忘 六 
rijMrijr1， 不 考虑 中 间 词 (MD) 的 情况 下 则 为 rijrijrr， 统 一 记 为 Po 
mu(Mmurl。 如 果 xijCMDrizrt 出 现在 原 句 中 ， 则 把 rijMDrijn 


替代 rijrijr 作为 新 的 抽取 结果 。 /* Sigmod 层 决 定 要 更 新 的 数值 */ 
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以 si d 4 输出 ， 为 前 向 过 程 的 最 终结 过 
foo(Ws [hs] tdi) ; 乘 以 sigmod 门限 的 输出 fo, 后 作为 前 向 过 程 的 最 果 所 
fh tanh( fC,) fo,; 
/# 后 向 过 程 : 计算 方法 与 前 向 过 程 相同 ， 只 是 计算 方向 相反 ; 此 


谨 tanh 层 生成 新 的 候选 数值 ， fC, 会 被 增加 到 神经 元 状态 中 六 


处 只 给 出 后 向 过 程 的 最 终结 果 */ 
bh, <¢— tanh(bC., )bo, ; 
上 # 拼接 前 向 过 程 与 后 向 过 程 的 结果 , 再 用 模型 中 的 权重 矩阵 WW 和 
上 # 更 新 旧 的 神经 元 状态 fC 到 新 的 神经 元 状态 fC，*/ 扁 置 矩阵 b 计算 出 未 解码 的 output */ 
output «— concat( fh,, bh, W+b; 


Cc, ¢- tanh (Wie [hs x]+ be ) ， 


fC hi* fC +t fi fC,; } 


谨 使 用 sigmod 层 决 定 哪 一 部 分 的 神经 元 状态 需要 被 输出 忆 /* 使 用 条 件 随 机 场 进行 解码 ，trans_params 为 模型 中 的 转移 矩阵 ， 


pre_tags 为 句子 对 应 的 标签 序列 */ 


pre_tags 二 crf_decode(output, trans_params); 


fo, —o(Wh [hx ]+by); 


让 神经 元 状态 fC, 经 过 tanh 〈 使 输出 值 变 为 -1~1 之 间 ) 


水 7 利和 代 RMI 禾 
“省 省 灶 
词 向 量 吴 ea 国 | Jp 词语 ，£ 国际 合作 元 素 ， 
能 酒 等 领域 Ar 企 作 所 纪 国 呈 全 人 三 二 
图 1 抽取 国际 合作 元 素 的 方法 框架 
Fig. 1 Methodological framework for extracting international cooperation elements 
} 
算法 2 基于 领域 知识 的 优化 else f (国际 合作 元 素 的 后 一 个 词 出 现在 结束 词 集合 中 ) { 
输入 : 一 个 句子 的 神经 网 络 的 抽取 结果 (词语 -标记 )， 开 始 结束 词 集合 ， NEer+E; 
中 间 词 集合 ， 边 界 标志 集合 以 及 触发 词 集合 。 } 
输出 : 最 终 抽取 结果 (词语 -标记 )。 } 
谍 1) 规 范 化 对 } 
while (句子 sentence 中 找到 了 未 匹配 的 “《》”,“0? 或 双 引 号 ) { 访 3) 合 并 元 素 */ 
查找 句子 sentence 中 未 匹配 的 “《》” “0” 或 双 引 号 ， 并 返回 第 一 for 句子 中 的 每 一 个 国际 合作 元 素 { 
次 出 现 的 位 置 六 让 (国际 合作 元 素 至 少 包 含 两 个 分 词 ) { 
¢ 9 spot 二 symbolmatch(sentence); 计 ( 该 国际 合作 元 素 之 后 仍 存在 其 他 国际 合作 元 素 ) { 
加 让 (未 匹配 的 符号 被 标记 为 “其 他 ”) { M 一 该 国际 合作 元 素 与 下 一 个 国际 合作 元 素 中 间 的 部 分 ; 
删除 该 词语 -标记 对 ; if(M 出 现在 了 中 间 词 集合 中 ) { 
} NE -ritMt+ri; 
else 让 (未 匹配 的 符号 被 标记 为 国际 合作 元 素 的 “开始 ”) { } 
找到 对 应 元 素 的 末尾 ， 添 加 对 应 符号 ， 并 修改 标记 ; } 
} } 
else } 
找到 对 应 元 素 的 开始 ， 添 加 对 应 符号 ， 并 修改 标记 ; 放 4) 修正 分 类 */ 
} 找 出 句子 中 包含 的 所 有 边界 标志 ; 
} 通过 边界 标志 和 国际 合作 元 素 的 位 置 明确 句子 中 的 窗口 位 置 和 大 小 ; 
/* 2) 扩充 元 素 */ 在 每 个 窗口 中 查找 触发 词 ; 
for 句子 中 的 每 一 个 国际 合作 元 素 根据 触发 词 的 优先 级 更 新 国际 合作 元 素 的 类 别 ; 
站 (国际 合作 元 素 至 少 包 含 两 个 分 词 ) { 4.1 神经 网 络 层 的 训练 
让 (国际 合作 元 素 的 前 一 个 词 出 现在 开始 词 集 合 中 ， 且 后 一 个 词 出 在 神经 网 络 层 中 ， 采 用 CNNs-BiLSTM-CRF02 结 构 获 取 
现在 结束 词 集合 中 ) { 初步 的 序列 标注 结果 。 其 中 ，CNNs 层 是 利用 每 个 词 中 的 每 
NE—B+r+E; 个 字 对 应 的 字 向 量 ， 通 过 CNNs 结合 后 得 到 一 个 词 的 字符 表 
} 示 (char representation)， 其 网 络 结构 如 图 2 所 示 ; BiLSTM 层 
else if (国际 合作 元 素 的 前 一 个 词 出 现在 开始 词 集合 中 ) { 的 输入 是 每 个 词 的 词 向 量 表示 (word embedding) 以 及 其 对 应 
NE—B+r; 的 字符 表示 的 连接 ， 输 出 为 每 一 个 词 对 应 的 标注 状态 ， 对 于 
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序列 标注 任务 ，CRF 层 在 考虑 邻 域 中 标签 之 间 的 相关 性 、 应 的 优化 策略 ， 对 应 于 第 3 节 中 的 规则 4。 


对 给 定 输 本 最 佳 标 注 甘 主 行 联合 解码 压 生 圭 日 。 
寺 给 定 输入 句子 的 最 佳 标注 链 进行 联合 解码 时 的 帮助 很 大 5 ”实验 结果 与 分 析 


5.1 实验 数据 集 和 环境 


字符 向 量 实验 部 分 使 用 到 的 第 1 部 分 数据 是 中 国 Web 外 交 新 闻 数 

据 集 , 它 来 源 于 中 国外 交 部 网 站 ! 提 供 的 中 国 驻 各 国 使 馆 新 闻 

a 文本 。 首 先 ， 针对 获取 的 中 国 Web 外 交 新 闻 数 据 集 ， 利 用 哈 

和 人 工大 提供 的 LTP 分 词 工具 ?依次 进行 分 句 、 分 词 处 理 ， 然 后 

根据 任务 需求 对 分 词 结果 进行 人 工 标 注 。 本 文选 用 3 个 人 作 

池 化 层 为 数据 集 的 标注 者 ， 以 少数 服从 多 数 决 定 正 确 答案 ， 当 出 现 

无 法 决定 的 情形 ， 则 由 3 人 讨论 并 经 本 文 确认 标注 结果 。3 

ce 个 人 的 组 成 为 2 位 本 科 生 和 1 位 研究 生 ， 且 都 有 财经 基础 课 
程 学 习 经 历 。 

图 2 得 到 词 的 字符 表示 的 CNN 网 络 结构 依据 句子 中 是 否 包 含 国 际 合 作 元 素 ， 可 分 为 外 交合 作 句 

Fig.2 CNN network structure for character representation of words 和 非 外 交合 作 句 。 中 国 Web 外 交 新 闻 数 据 集中 共有 10 030 


在 CNNs-BiLSTM-CRF 模型 的 训练 过 程 中 ， 本 文 所 使 用 个 外 交合 作 句 ， 可 作为 抽取 国际 合作 元 素 的 数据 集 ， 记 为 
的 参数 与 文献 [12] 中 略 有 不 同 。 具 体 的 参数 选择 情况 如 表 1 ” dataSeti。 实验 部 分 使 用 到 的 第 2 部 分 数据 是 中 文 维基 百科 的 
所 示 。 其 中 ，adam 为 学 习 率 (learning rate) 优 化 时 所 采用 的 网 页 数据 集 ， 记 为 dataSetb。 
种 利用 一 阶 导 数 的 优化 算法 , 此 类 算法 的 选择 会 影响 到 batch 在 实验 过 程 中 ， 训 练 集 、 验 证 集 和 测试 集 的 划分 如 下 : 
size 在 数量 级 上 的 选择 , 在 综合 各 类 因素 后 batch size 最 终 取 将 dataSeti 中 的 8 000 个、1 000 个 和 1 030 个 句子 分 别 作 为 


值 为 20;， gradient clipping 取 值 为 -1( 小 于 0) 表 示 不 使 用 训练 集 、 验 证 集 和 测试 集 。 在 训练 集 、 验 证 集 和 测试 集中 ， 
gradient clipping 。 人 工 标注 的 5 种 类 别 国际 合作 元 素 的 统计 数据 如 表 2 所 示 。 
表 1 神经 网 络 层 训 练 的 参数 选择 表 2 数据 集中 不 同类 别 国际 合作 元 素 的 统计 结果 
Table 1 Parameter selection of neural network layer training Table 2 Statistical results of different types of international 
层 超 参 数 值 cooperation elements in the dataset 
EN window size 3 类 别 训练 集 验证 集 测试 集 合计 
number of filters 30 数量 /个 ” 占 比 /% 数量 /个 占 比 /% 数量 /个 占 比 /% 数量 /个 占 比 /% 
state size 300 规划 516 3.36 62 3.11 132 3.28 710 3.92 
LSTM initial state 0 产业 10087 65.63 1333 66.78 2690 66.89 14110 65.97 
peepholes No 项 目 655 10.77 228 11.42 426 10.59 2309 10.80 
dropout dropout jate 0.5 协定 618 4.02 66 3.31 L531 273 835 3.90 
平台 2493 16.22 307 15.38 623 15.49 3423 16.01 
ee bateh 0 合计 15369 100 1996 100 4022 00 21387 100 
Other parameter ee 加 人 5 人 节 中 提 到 的 - 和 . . 1 Es ol 
pp 了 及 边 人 | > 建 的 | | 9。 其 开 始 词 和 和 
learning rate method Adam py a ee el < | 人 二 人 raed Wd 
语 ; 触发 词 共 提取 了 27 个 词语 ; 边界 标志 共 提 取 了 4 个 标点 


4.2 基于 领域 知识 的 优化 | i 符号 和 6 个 词语 。 
在 分 析 了 由 神经 网 络 层 抽取 到 的 初步 结果 后 ， 本 文 发 现 
初步 抽取 结果 中 仍然 存在 着 2.2 节 中 所 提 到 的 6 类 问题 。 其 


实验 环境 : HP Z840 图 形 工作 站 ， 采 用 Python 语言 ， 
a WO 罗 a 使 用 谷歌 提供 的 TensorFlow 深度 学 习 框架 。 实 现 方案 : 参考 
站 有 用 一 古 才 和 全 于。 了 TensorFlow 训练 神经 网 络 模型 的 标准 机 制 ， 即 网 络 结构 设 
出 现 特殊 符号 未 配对 现象 ， 二 是 抽取 过 程 中 丢失 符号 。 此 en ， a | 
身 出 现 特殊 符号 未 配对 现象 ， 一 是 抽 到 过 程 中 丢失 符号 。 此 。。 汁 与 数据 流 独立 ， 在 神经 网 络 初步 抽取 之 后 ， 根 据 提取 的 领 
类 问题 是 底层 的 抽取 错误 , 可 能 会 对 后 续 优化 过 程 产生 影响 ， 域 知识 ， 逐 个 优化 领域 知识 的 实现 
比 必须 首先 对 初步 抽取 结果 进行 规范 里 。 在 规范 Ra 
对 此 必须 首先 对 初步 抽取 结果 进行 规范 化 处 理 。 在 规范 化 处 5.2 实验 设计 与 实验 结果 分 析 


香 中 ， 要 保证 抽取 结果 中 特殊 符号 的 出 现 必须 与 数据 集 > 
A 本 节 首先 对 第 3 节 中 提取 出 的 领域 知识 在 数据 集中 的 影 
与 


含 的 特殊 符号 “同步 ” 即 如 果 数据 集中 特殊 符号 配对 出 现 ， 风范 围 进行 分 机 ， 然 后 再 针对 本 文 方法 
则 抽取 结果 中 特殊 符号 也 必须 配对 出 现 ; 否则 ， 抽 取 结果 中 。 CNN_BiLSTMLCRFE3 异 型 抽取 国际 合作 元 素 的 料 痪 率 忆 
不 出 现 特殊 符号 。 规 范 化 处 理 对 应 于 第 3 节 中 的 规则 1。 召回 率 及 以 及 天 1 值 进行 实验 对 比分 析 。 

对 于 “未 抽取 完全 ”和 “分 割 抽取 ”2 类 问题 ， 虽 然 它 | 
们 都 已 经 抽取 到 了 真实 结果 的 组 成 部 分 ， 但 是 这 样 的 结果 ed 
不 完整 ， 并 不 是 真正 的 国际 合作 元 素 。 然 而 ， 正 因为 它们 抽 。 staset, 进行 的 。 其 中 ,规则 1 用 于 规范 化 初步 抽取 结果 ， 规 
取 到 了 真实 结果 的 组 成 部 分 ， 才 提供 了 针对 初步 抽取 结果 进 


an edd ds Rl eat 则 2 和 规则 3 用 于 弥补 由 “未 抽取 完全 ”和 “分 割 抽取 ” 问 
行 “扩充 ”与 “合并 ”来 优化 抽取 结果 的 机 会 扩充” 与 “ 合 。 显 带 来 的 抽取 错误 ， 夫 


并 ”的 有 具体 策略 对 应 于 第 3 节 中 规则 2 和 规则 3。 

在 优化 了 “未 抽取 完全 ”和 “分 割 抽 取 ” 两 类 问题 之 后 
产生 新 的 国际 新 国际 合 原 国 际 合 

人 生 新 的 国际 合作 元 素 ” | EE 陈 全 作 元 素 和 上 奈 国际 合 ihttp://www.fmpre.gov.cn/web/zwjg_674741/zwsg_674743/yz_674745 

作 元 素 中 仍然 会 存在 “分 类 错误 ”问题 。 为 此 本 文 提 出 了 相 2 http://www.ltp-cloud.com/demo/ 


则 4 则 用 于 改进 “分 类 错误 ”问题 。 
表 3 领域 知识 的 提取 效果 分 析 
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Table 3 Analysis on extraction effect of domain knowledge 为 了 综合 并 直观 地 对 所 有 的 实验 结果 进行 对 比分 析 ， 将 
规则 问题 数量 /个 发 现 数量 /个 纠正 数量 /个 发 现 率 /% 纠正 率 /% 本文 方 法 与 CNNs-BiLSTM-CRF 模型 的 实验 结果 (考虑 1 值 ) 
规则 1 24 24 23 100 95.83 通过 柱状 图 进行 比较 直观 的 比 对 分 析 ， 结 果 如 图 3 所 示 。 
规则 2 448 501 389 89.42 77.64 从 图 3 可 以 看 出 ， 本 文采 用 基于 领域 知识 的 优化 策略 ， 
规则 3 92 18 $1 wo 对 提高 CNNs-BiLSTM-CRF 模型 的 Fl 值 有 明显 的 效果 。 规 
规则 4 _601 238 a A /4 划 类 别 的 F1 值 提高 了 8.49 个 百分点 ， 提 高 率 为 10.25%; 产 


于 4 条 规则 均 是 为 万 化 神经 网 络 层 的 抽取 结果 i 提出 业 类 别 的 Fl 值 提 高 了 0.55 个 百分点 ， 提高 率 为 0.62%; 


六 


这 


4 ， 前 题 是 保证 在 不 影响 神经 网 络 层 FE 确 结果 的 前 a 
的 ， 前 题 是 保证 在 不 影响 神经 网 络 层 已 抽取 正确 结果 的 前 提 目 类 别 的 F1 值 提 高 了 9.68 个 百分点 ， 提 高 率 为 14.30%; 


全 已 四 尔 寂 起 进 错 误 股 朵 评价 标 担 十- 高 率 》 
下 ， 尽 可 能 准确 地 弥补 或 改进 错误 ， 因 此 一 般 的 规则 评价 标 。 定 类 别 的 F1 信和 提高 了 9 42 个 百分点 ”提高 率 为 12 378 


准 并 不 笑 比 类 情况 。 于 过 提出 ) 个 指标 来 评 es a Wi 
人 类别 的 FI 值 提高 了 5.45 个 百分点 ， 提 高 来 为 6.48% 
让 类 二 人 座 因 挝 大 和 % o 

发 现 率 = 真实 问题 个 数 /发 现 问题 个 数 *100% 
纠正 率 -= 纠正 问题 个 数 /发 现 问题 个 数 *100% 
其 中 ， 发 现 率 用 来 评测 规则 是 否 能 够 尽 可 能 多 地 发 现 错误 结 
果 ， 而 不 去 影响 正确 结果 ， 纠 正 率 用 来 评价 规则 所 发 现 的 错 

不 


误 是 否 能 够 被 尽 可 能 多 地 纠正 。 


: 用 dataSet! 和 dataSet2 
训练 出 一 个 300 维 的 词 向 量 ， 然 后 ， 将 词 向 量 、 训 练 集 和 验 
证 集 作为 输入 ， 通 过 网 络 模型 训练 出 一 个 国际 合作 元 素 的 标 
注 模 型 ， 最 后 ， 可 以 评估 出 测试 集 在 标注 模型 上 的 表现 ， 如 
表 4 所 示 。 本 文 方法 的 实验 结果 如 表 5 所 示 。 
表 4 CNNs-BiLSTM-CRF 模型 的 实验 结果 65.00% 75.00% 85.00% 95.00% 


Table 4 Experimental Results of the CNNs-BiLSTM-CRF model 口 本 文 方法 神经 网 络 + 规 则 4 Fl 
2 J 业 。 田 神 经 网 络 + 规 则 2 规则 3 日 神经 网 络 + 规则 1 
规划 88.33 77.94 82.81 四 神经 网 络 
oe 。 J 图 3 采用 基于 领域 知识 的 优化 策略 对 提高 CNNs-BiLSTM-CRF 模 
协定 72.83 79.76 76.14 型 Fl 值 的 对 比分 析 
平台 83.02 85.13 84.06 Fig.3 Comparative analysis for improving Fl] of the cnns-bilstm-CRF 
合计 85.32 86.08 85.70 model using the optimization strategy based on domain knowledge 
表 5 本 文 方法 的 实验 结果 从 产业 类 别 来 看 ， 领 域 知识 对 该 类 别 的 影响 最 小 ， 使 得 
Table 5 Experimental results of the proposed model 领域 知识 在 该 类 别 上 的 优化 效果 很 低 ， 原 因 主要 有 3 点 : 一 
规则 类 别 P/% R/% F/% 是 产业 类 别 的 国际 合作 元 素 的 词 长 都 较 短 ， 因 此 
规划 90.00 79.41 84.38 CNNs-BiLSTM-CRF 模型 对 产业 类 别 的 国际 合作 元 素 的 抽取 
产业 88.75 90.06 89.40 效果 较 好 (Fl 值 为 89.40%); 二 是 在 数据 集中 产业 类 别 的 国际 
规则 1 项 目 69.47 66.00 67.69 合作 元 素 总 量 较 多 ( 占 总 量 的 65.97%)，CNNs-BiLSTM-CRF 
W 定 7253 7976 7614 模型 对 于 产业 类 别 的 国际 合作 元 素 的 训练 效果 较 好 ; 三 是 “办 
T8318 8608 5460 充 ” 与 “合并 ”规则 主要 是 用 于 优化 较 长 的 国际 合作 元 素 (要 
合计 85.39 86.28 85.83 求 词 长 不 小 于 2) 的 抽取 效果 。 
0 对 于 项 目 类 别 ， 相 比 其 他 类 别 而 言 ， 尽 管 领域 知识 使 得 
昌 取 结果 的 F1 值得 到 了 最 大 程度 的 优化 (FI 值 提高 了 
瑞光 wj id9 eh de 14.30%)， 但 由 于 CNNs-BiLSTM-CRF 模型 对 项 目 类 别 抽取 
0 的 F1 值 是 最 低 的 (F1 值 为 67.69%)， 导 致 优化 之 后 对 项 目 类 
合计 86.51 87.66 87.08 别 H 取 的 rl 值 仍然 是 最 低 的 (F1 值 为 77.37%)。 本 文 认为 主 
规划 88.52 79.41 83.72 要 原因 有 2 点 : 一 是 CNNs-BiLSTM-CRF 模型 对 项 目 类 别 的 
产业 88.70 90.13 89.41 召回 率 明 显 偏 低 (R 值 为 66.00%)， 而 领域 知识 是 基于 对 该 模 
ee 项 目 69.79 67.00 68.37 型 召回 的 国际 合作 元 素 进 行 优化 ， 尽 管 在 优化 过 程 中 还 会 发 
协定 74.19 82.14 85.27 现 新 的 国际 合作 元 素 ， 一 定 程度 上 提高 召回 率 ， 但 优化 之 后 
平台 84.47 86.08 84.06 对 项 目 类 别 的 召回 率 还 是 偏 低 (R 值 为 79.50%); 二 是 项 目 类 
中 0 2 On 别 的 国际 合作 元 素 相 较 于 其 他 类 别 的 构成 更 为 复杂 ， 导 致 该 
人 05 219 模型 的 抽取 精度 也 明显 偏 低 (P 值 为 69.47%)， 优 化 之 后 对 项 
Ce 目 类 别 的 抽取 精度 还 是 偏 低 (P 值 为 75.36%)。 
所 有 规则 结合 0 对 于 平台 类 别 ， 由 于 被 分 类 未 平台 类 别 多 为 机 构 名 称 ， 
97 5 而 机 构 名 称 的 抽取 也 是 传统 命名 实体 识别 的 任务 之 一 ， 并 且 
a 从 表 2 中 可 以 看 出 平台 类 别 在 所 有 元 素 类 别 中 的 占 比 排名 第 


二 (16.01%)。 因 此 ，CNNs-BiLSTM-CRF 模型 对 其 抽取 的 精 


录用 定稿 


| 
人 LnInaxIV 听 


作 期 刊 


A 


张 子 靖 ， 等 : 基于 神经 网 络 与 领域 知识 的 外 交 国 际 合作 元 素 抽 取 


度 和 召回 率 都 较为 出 色 且 平均 (P 值 为 83.02%, R 值 为 
85.13% )。 但 是 由 于 国际 合作 元 素 的 长 度 分 布 不 均匀 ， 平 台 
元 素 相 比 传统 的 机 构 名 在 抽取 过 程 中 会 遇 到 更 多 的 “未 完全 
取 ” 和 “分 割 抽取 ”现象 。 
从 规划 和 协定 类 别 来 看 ， 由 于 这 些 类 别 的 国际 合作 元 素 
一 般 都 较 长 , 同时 这 两 类 元 素 在 数据 集中 的 占 比 很 小 (分 别 为 
3.32% 和 3.90%)， 所 以 CNNs-BiLSTM-CRF 模型 在 这 4 类 国 
际 合作 元 素 的 抽取 结果 上 表现 不 佳 ， 而 领域 知识 则 有 效 地 提 
升 了 这 两 类 国际 合作 元 素 提 取 的 Fl 值 。 


6 ”结束 语 


本 文 首先 利用 分 词 工 具 对 语料库 中 的 Web 外 交 新 闻 文 
本 进行 分 词 ， 再 利用 神经 网 络 对 文本 中 的 国际 合作 元 素 进行 
初步 抽取 ， 最 后 结合 人 工 提取 的 领域 知识 对 初步 抽取 结果 进 
行 优化 得 到 国际 合作 元 素 的 最 终 抽取 结果 。 在 实验 阶段 ， 把 
本 文 方法 与 神经 网 络 方法 在 相同 语料库 上 进行 了 对 比分 析 ， 
验证 了 本 文 方法 能 取得 更 好 的 效果 ; 同时 对 人 工 提 取 的 领域 
知识 在 语料库 上 的 效果 进行 了 对 比 和 分 析 。 

从 实验 分 析 中 可 以 发 现 ， 本 文 方法 对 于 初步 抽取 结果 有 


| 


图 


加 


着 较 强 的 依赖 性 ， 所 以 如 何 提高 初步 抽取 性 能 是 未 来 工作 的 
重点 之 一 ， 尤 其 是 对 项 目 类 别 国 际 合作 元 素 的 抽取 。 其 次 ， 
本 文 使 用 的 语料库 中 五 类 国际 合作 元 素 的 分 布 倾斜 度 较 高 ， 
今后 会 考虑 对 数据 集 进行 扩充 并 构建 一 个 5 类 合作 元 素 分 布 
倾斜 度 较 小 的 数据 集 ， 在 新 的 数据 集 上 对 方法 进行 实验 和 改 
进 。 最 后 ,利用 从 Web 外 交 新 闻 中 抽取 到 的 国际 合作 元 素 继 
续 开展 知识 发 现 方面 的 研究 。 
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